ODTQA-FoRe: dataset para preguntas tabulares y pronóstico
Descubre ODTQA-FoRe, el primer dataset para preguntas tabulares con predicción futura. TimeFore combina LLM y modelos de series temporales para pronósticos precisos en datos inmobiliarios.
Descubre ODTQA-FoRe, el primer dataset para preguntas tabulares con predicción futura. TimeFore combina LLM y modelos de series temporales para pronósticos precisos en datos inmobiliarios.
Descubre CoCoVideo-26K, un benchmark contrastivo con videos reales y generados por IA comerciales. Ideal para detectar deepfakes de alta calidad.
SCALE permite a agentes web automejorar mediante exploración cognitiva, superando limitaciones en entornos dinámicos. Mejora el rendimiento de MLLMs.
Descubre AMNESIA, el primer benchmark masivo para evaluar desaprendizaje en LLMs médicos. ¿Cómo olvidar pacientes sin perder conocimiento clínico? Entra.
<meta name=description content=Descubre OmniMatBench, un benchmark multimodal calibrado por humanos que evalúa IA en 19 subcampos de ciencia de materiales. Ideal para investigadores y desarrolladores.>
Repensando el FID con la geometría del dataset de referencia: cómo mejorar la evaluación de imágenes generadas por IA
Evaluamos un benchmark para eliminar marcas de agua en datasets, clave para la trazabilidad del fine-tuning de modelos de difusión.
<meta name=description content=JMed48k: Benchmark multidisciplinario para evaluar modelos de visión y lenguaje en medicina japonesa>
Mejora la clasificación de requisitos con SMOTE-Tomek. Equilibra datos desbalanceados y optimiza la precisión en el análisis de requisitos.